pEnglish2023-12-20

I practiced English conversation until I used up the GPT quota yesterday before sleep. Reviewing the chat logs in the morning and organizing them is a good practice for improving my English. It generates English contents and serves as a way to express my thoughts in English.

ChatGPTと英会話2023-12-20

タイトルの翻訳の過程で衝突するケースを観察

num collision 54

https://gist.github.com/nishio/2a732b8b5ad9291bfaaf7603f362254b (v3)

いやーーーこれは同一視されたくないな

[Subjectivity]: [属人性] / [主体性]

[Common Sense]: [当たり前のこと] / [当たり前]

違うと思う

[Community]: [コミュニティ] / [共同体]

うーん

残り2件、難しいので続きは明日

[Diversity]: [多様性] / [多元]

[Empathy]: [共感] / [同理心]

2023-12-21にすること

残り2件の解決

✅

翻訳を開始

多分長いのがエラーになる

失敗リストに入れて続行

2023-12-21

翻訳システム、どうせリンク取得のためにクロールしてるのでJSONのエクスポートは不要なのでは？という気がしてきている

インデント保存しない問題

A key feature of your translation is the preservation of formatting, especially spaces and tabs at the beginning of lines. These are crucial for indicating indentation in bullet lists and must be accurately replicated in your translations.

GPT3.5での翻訳、59件目までできた

そして想定通り長すぎる記事でエラー

code::

20%|███████████████████▎ | 59/300 04:55<20:05, 5.00s/it

openai.BadRequestError: Error code: 400 - {'error': {'message': "This model's maximum context length is 4097 tokens. However, your messages resulted in 6138 tokens. Please reduce the length of the messages.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

python -m tasks.translate.from_jsonl 9.23s user 2.91s system 4% cpu 5:01.91 total

それはそう

長すぎる記事はスルーしてとりあえずやり切る案

一旦スルーして翻訳できるものだけ翻訳してみる

エラーが起きたページはエラーの内容だけ記録して、とりあえず最後まで走ることを目指す

実行開始した

続きはまた明日

未来の自分のための書き置き

完了したら時間と処理されたページ数をみる

エラーとして記録されたページがいくつあるかみると良い

かかった料金を確認する

エラーのほとんどは長すぎるページだと思う

長いページをどうするのかは要検討

翻訳する必要がないケース、きっちり翻訳すべきケースがある

単にコンテキスト幅の広いAPIでやればいいケース

分割して翻訳するケース

...

適切な切り出し方は、ニーズが明らかになった後に決まる

長すぎるページは切り出されるべき？

一方で元のページを残しておきたいニーズもある

PDFでいい説もある？

2023-12-23

2023-12-22の朝に確認して38%だったんだけど、どうもその時点でハングしてたらしい

38%|█... | 6668/17569 [11:16:08<7:32:13, 2.49s/it]

今見たら進んでてなかった、うーん失敗

エラーを出さずにサイレントにハング

https://gyazo.com/0c2e7da99d0c4b33464d1289050df692

2023-12-24

47%|█... | 8310/17569 [00:23<00:39, 234.63it/s]

return self._sslobj.read(len)

readでブロックしてる